pkuseg:领域细分的中文分词工具

查看原文

其他

pkuseg:领域细分的中文分词工具

lancopku 大邓和他的Python 2019-04-26

细分领域的中文分词工具，简单易用，跟现有开源分词工具相比提高了分词的准确率。

Linux作为测试环境，在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。

细领域训练及测试结果

以下是在不同数据集上的对比结果：

跨领域测试结果

我们选用了混合领域的CTB8语料的训练集进行训练，同时在其它领域进行测试，以模拟模型在“黑盒数据”上的分词效果。选择CTB8语料的原因是，CTB8属于混合语料，理想情况下的效果会更好；而且在测试中我们发现在CTB8上训练的模型，所有工具包跨领域测试都可以获得更高的平均效果。以下是跨领域测试的结果：

pkuseg具有如下几个特点：

多领域分词。不同于以往的通用中文分词工具，此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点，用户可以自由地选择不同的模型。我们目前支持了新闻领域，网络文本领域和混合领域的分词预训练模型，同时也拟在近期推出更多的细领域预训练模型，比如医药、旅游、专利、小说等等。
更高的分词准确率。相比于其他的分词工具包，当使用相同的训练数据和测试数据，pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。

使用方式

代码示例1：使用默认模型及默认词典分词

import pkuseg

seg = pkuseg.pkuseg()                        # 以默认配置加载模型
text = seg.cut('我爱北京天安门')                # 进行分词
print(text)

结果

    loading model
    finish
    ['我', '爱', '北京', '天安门']

精选文章

我是如何通过python挣外快的

PySimpleGUI: 开发自己第一个软件

【视频讲解】Scrapy递归抓取简书用户信息

大邓强力推荐-jupyter notebook使用小技巧

数据清洗常用正则表达式大全

Python 3.7中dataclass的终极指南（一）

Python 3.7中dataclass的终极指南（二）

[计算消费者的偏好]推荐系统与协同过滤、奇异值分解

古树普洱茶山头直发，买茶别再花冤枉钱！

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

pkuseg:领域细分的中文分词工具

细领域训练及测试结果

跨领域测试结果

pkuseg具有如下几个特点：

使用方式

您可能也对以下帖子感兴趣

古树普洱茶山头直发，买茶别再花冤枉钱！

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

生成图片，分享到微信朋友圈

pkuseg:领域细分的中文分词工具

细领域训练及测试结果

跨领域测试结果

pkuseg具有如下几个特点：

使用方式

您可能也对以下帖子感兴趣